12. 练习:杆平衡

练习:杆平衡

在这个经典的强化学习任务中,在光滑的道路上有一辆购物车,购物车的顶部插着一根杆子。目标是通过使购物车向左或向右移动,防止杆子掉下来,并且购物车不会脱离轨道。

OpenAI Gym 实现中,智能体在每个时间步都向购物车应用 +1 或 -1 的力。它是一个阶段性任务,在以下情况下这一阶段会结束:(1) 杆子与垂直方向的夹角超过 20.9 度,(2) 购物车离道路中心的距离超过 2.4 个单位,或者 (3) 时间步超过了 200 步。对于每个时间步,购物车都获得奖励 +1,包括最终时间步。你可以在 OpenAI 的 github 中详细了解该环境。该任务还出现在了教科书的第 3.4 个示例中。

智能体在每个时间步都获得奖励 +1,包括最终时间步。哪些折扣率会鼓励智能体尽量使杆子保持平衡?(请选中所有适用项。)

SOLUTION:
  • 折扣率为 1。
  • 折扣率为 0.9。
  • 折扣率为 0.5。

‘假设我们对奖励信号进行了修改,仅在阶段结束时向智能体提供奖励。因此在每个时间步,奖励都是 0,但是最终时间步除外。当阶段结束时,智能体获得奖励 -1。哪些折扣率会鼓励智能体尽量使杆子保持平衡?(请选中所有适用项。)'

SOLUTION:
  • 折扣率是 0.9。
  • 折扣率是 0.5。

假设我们对奖励信号进行了修改,仅在阶段结束时向智能体提供奖励。因此在每个时间步,奖励都是 0,但是最终时间步除外。当阶段结束时,智能体获得奖励 +1。哪些折扣率会鼓励智能体尽量使杆子保持平衡?(请选中所有适用项。)

SOLUTION:
  • 所有这些折扣率都无法帮助智能体,因为没有奖励信号。